Machine learning and deep learning-based decision making has become part of today's software. The goal of this work is to ensure that machine learning and deep learning-based systems are as trusted as traditional software. Traditional software is made dependable by following rigorous practice like static analysis, testing, debugging, verifying, and repairing throughout the development and maintenance life-cycle. Similarly for machine learning systems, we need to keep these models up to date so that their performance is not compromised. For this, current systems rely on scheduled re-training of these models as new data kicks in. In this work, we propose to measure the data drift that takes place when new data kicks in so that one can adaptively re-train the models whenever re-training is actually required irrespective of schedules. In addition to that, we generate various explanations at sentence level and dataset level to capture why a given payload text has drifted.
translated by 谷歌翻译
当前的利益点方法(POI)建议通过标准空间特征(例如POI坐标,社交网络等)来了解用户的偏好。这些模型忽略了空间移动性的关键方面 - 每个用户都承载他们的偏好无论他们走到哪里,智能手机。此外,随着隐私问题的越来越多,用户避免分享其确切的地理坐标及其社交媒体活动。在本文中,我们提出了Revamp,这是一种顺序POI推荐方法,该方法利用智能手机应用程序(或应用程序)上的用户活动来识别其移动性偏好。这项工作与最近对在线城市用户的心理学研究保持一致,这表明其空间行动行为在很大程度上受其智能手机应用程序的活动影响。此外,我们对粗粒智能手机数据的建议是指以隐私意识的方式收集的数据日志,即仅由(a)类别的智能手机应用程序和(b)类别的签到位置组成。因此,改装并不愿意精确地坐标,社交网络或要访问的特定应用程序。在自我注意模型的疗效的推动下,我们使用两种形式的位置编码(绝对和相对)学习了用户的POI偏好,每种位置编码是从A的签入动力学中提取的,在A的入住序列中提取用户。来自中国的两个大规模数据集进行的广泛实验表明,改革的预测能力及其预测应用程序和POI类别的能力。
translated by 谷歌翻译
时间图代表实体之间的动态关系,并发生在许多现实生活中的应用中,例如社交网络,电子商务,通信,道路网络,生物系统等。他们需要根据其生成建模和表示学习的研究超出与静态图有关的研究。在这项调查中,我们全面回顾了近期针对处理时间图提出的神经时间依赖图表的学习和生成建模方法。最后,我们确定了现有方法的弱点,并讨论了我们最近发表的论文提格的研究建议[24]。
translated by 谷歌翻译
通过人类活动(例如在线购买,健康记录,空间流动性等)生成的大量数据可以在连续时间内表示为一系列事件。在这些连续的时间事件序列上学习深度学习模型是一项非平凡的任务,因为它涉及建模不断增加的事件时间戳,活动间时间差距,事件类型以及不同序列内部和跨不同序列之间的不同事件之间的影响。近年来,对标记的时间点过程(MTPP)的神经增强功能已成为一种强大的框架,以模拟连续时间内定位的异步事件的基本生成机制。但是,MTPP框架中的大多数现有模型和推理方法仅考虑完整的观察方案,即所建模的事件序列是完全观察到的,没有丢失的事件 - 理想的设置很少适用于现实世界应用程序。最近考虑的事件的最新工作是在培训MTPP时采用监督的学习技术,这些技术需要以序列的方式了解每个事件的丢失或观察标签,这进一步限制了其实用性,因为在几种情况下,缺失事件的细节是不知道的apriori 。在这项工作中,我们提供了一种新颖的无监督模型和推理方法,用于在存在事件序列的情况下学习MTPP。具体而言,我们首先使用两个MTPP模拟观察到的事件和缺失事件的生成过程,其中缺少事件表示为潜在的随机变量。然后,我们设计了一种无监督的训练方法,该方法通过变异推断共同学习MTPP。这样的公式可以有效地将丢失的数据归为观察到的事件,并可以在序列中确定缺失事件的最佳位置。
translated by 谷歌翻译
生成反事实测试箱是测试NLP模型并使其像传统软件一样坚固且可靠的重要主体。在生成测试箱时,所需的特性是能够以灵活的方式控制测试案例生成以测试各种故障案例并以目标方式解释和修复它们。在这个方向上,通过手动编写生成受控反事实的规则,在先前的作品中取得了重大进展。但是,这种方法需要大量的手动监督,并且缺乏轻松引入新控件的灵活性。由PPLM的插件方法令人印象深刻的灵活性的激励,我们建议将插件的框架带入反事实测试案例生成任务。我们介绍了Casper,这是一种插件的反事实生成框架,以生成满足需求目标属性的测试用例。我们的插件模型可以在给定任何属性模型的情况下引导测试案例生成过程,而无需对模型的属性特定培训。在实验中,我们表明Casper有效地生成了反事实文本,该文本遵循属性模型提供的转向,同时流利,多样化并保留原始内容。我们还表明,CASPER的生成的反事实可用于增强训练数据,从而固定并使测试模型更加可靠。
translated by 谷歌翻译
在现代的NLP应用程序中,单词嵌入是一个至关重要的主链,可以在许多任务中很容易共享。但是,随着文本分布的变化和单词语义随着时间的推移而发展,如果单词表示不符合数据漂移,则使用嵌入的下游应用程序可能会受到影响。因此,将单词嵌入与基础数据分布保持一致是关键问题。在这项工作中,我们解决了这个问题,并提出了Transdrift,这是一个基于变压器的嵌入预测模型。利用变压器的灵活性,我们的模型准确地了解了嵌入漂移的动力学,并预测了未来的嵌入。在实验中,我们与现有方法进行了比较,并表明我们的模型比基线更准确地预测了嵌入一词的准确预测。至关重要的是,通过将预测的嵌入作为下游分类任务的骨架,我们表明,与先前的方法相比,我们的嵌入会导致卓越的性能。
translated by 谷歌翻译
任何人类活动都可以表示为实现某个目标的行动的时间顺序。与机器制造的时间序列不同,这些动作序列是高度分散的,因为在不同的人之间完成类似动作的时间可能会有所不同。因此,了解这些序列的动力学对于许多下游任务,例如活动长度预测,目标预测等都是必不可少的。对活动序列建模的现有神经方法要么仅限于视觉数据,要么是特定于任务的神经方法,即仅限于下一个动作或目标预测。在本文中,我们提出了积极主动的,是一个神经标记的时间点过程(MTPP)框架,用于建模活动序列中的动作连续时间分布,同时解决三个高影响力问题 - 下一步动作预测,序列 - 目标预测,序列预测,和端到端序列生成。具体而言,我们利用具有时间归一化流量的自我发项模块来模拟序列中的动作之间的影响和到达时间间的时间。此外,对于时间敏感的预测,我们通过基于边缘的优化程序进行了序列目标的早期检测。这种往返允许积极主动使用有限数量的动作来预测序列目标。从三个活动识别数据集得出的序列进行的广泛实验表明,在动作和目标预测方面,主动的准确性提升了,并且是有史以来第一次应用端到端动作序列生成的实验。
translated by 谷歌翻译
良好的数据可视化不仅是无失真的数据图形表示,而且是一种揭示数据统计特性的方法。尽管在数据分析的各个阶段常用,但选择良好的可视化通常是涉及许多迭代的手动过程。最近,兴趣通过开发可以推荐可视化的模型来减少这项努力,但它们的使用量有限,因为它们需要大型培训样本(数据和可视化对)并主要关注设计方面,而不是评估效果选择可视化。在本文中,我们呈现Vizai,一种生成鉴别框架,首先从数据的多个替代可视化生成数据的各种统计特性。它链接到一个辨别模型,该模型选择最佳匹配被可视化数据的真实统计数据。 Vizai可以很容易地培训,可轻松监督,并适应具有不同程度的监督的设置。我们展示了Vizai的众所可求的判断和大型公开可视化的储存库,优于学习推荐可视化的现有方法的状态。
translated by 谷歌翻译